Как проверить данные во фрейме Pandas с помощью Pandera

Убедитесь, что данные соответствуют ожиданиям

В науке о данных важно тестировать не только функции, но и данные, чтобы убедиться, что они работают так, как вы ожидали. Материалом о простой библиотеке Pandera для валидации фреймов данных Pandas делимся к старту флагманского курса по Data Science.


Чтобы установить Pandera, в терминале наберите:

pip install pandera

Введение

Начнём с простого набора данных, чтобы понять, как работает Pandera:

import pandas as pd  fruits = pd.DataFrame(     {         "name": ["apple", "banana", "apple", "orange"],         "store": ["Aldi", "Walmart", "Walmart", "Aldi"],         "price": [2, 1, 3, 4],     } )  fruits

Представьте: ваш менеджер сказал вам, что в наборе данных могут храниться только определённые фрукты, а значение их цены должно быть меньше 4:

available_fruits = ["apple", "banana", "orange"] nearby_stores = ["Aldi", "Walmart"]

Проверка данных вручную может занять много времени, особенно когда

Читать далее